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FIRMWAREMECHANISMUS ZUM KORRIGIEREN VON WE I CHEN FEHLERN 

Hintergrund der Erf indung 

5 Technisches Gebiet Die vorliegende Erfindung betrif ft 

Mikroprozessoren und insbesondere Mikroprozessoren, die in 
hochgradig zuverlassigen Betriebsmoden arbeiten kdnnen. 

Hintergmndinformationen Weiche Fehler treten auf , wenn 
10 Alphateilchen Oder kosmische Strahlungen auf eine inte- 
grierte Schaltung treffen und an den Spannungsknoten der 
Schaltung gespeicherte Ladungen &ndern. Wenn die Ladungsan- 
derung groS genug ist, kann eine einen logischen Zustand re- 
present ierende Spannung in eine einen anderen logischen re- 
15 pr^sentierende Spannung geandert werden. Beispielsweise kann 
eine einen logischen Wahr- Zustand reprasentierende Spannung 
in eine einen logischen Falsch- Zustand reprasentierende 
Spannung geandert werden, und alle den logischen Zustand 
enthaltenden Daten werden verfaischt. 

20 

Die Fehlerrate fur weiche Fehler (soft error rate-SER) 
in integrierten Schaltungen wie Mikroprozessoren ("Prozesso- 
ren n ) nimmt mit der Entwicklung der HalbleiterprozeEtechno- 
logien hin zu kleineren Abmessungen und niedrigeren Be- 

25 triebsspannungen zu, Kleinere Prozefiabmessungen erm6glichen, 
daS hohere Bauelementdichten auf dem Prozessorchip erzielt 
werden konnen. Dies erhoht die Wahrscheinlichkeit dafur, daB 
ein Alphateilchen oder kosmische Strahlung auf einen der 
Spannungsknoten des Prozessors auftrifft. Niedrigere Be- 

30 triebsspannungen bedeuten, daS Durchschl&ge von geringeren 
Ladungen genugen, um den von den Knotenspannungen reprtsen- 
tierten logischen Zustand zu Sndern. Beide Entwicklungen 
weisen auf hdhere SERs in der Zukunft hin. Weiche Fehler 
kdnnen in einem Prozessor korrigiert werden, wenn sie erfafit 
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werden, bevor verfalschte Ergebnisse zur Aktualisierung des 
architektonischen Zustands des Prozessors verwendet werden. 

• Prozessoren verwenden haufig parit&tsabMngige Mechanis- 
men, um eine Datenverfalschung aufgrund von weichen Pehlern 
5 zu erfassen. Jedem Datenblock wird bei der Speicherung ein 
ParitStsbit zugeordnet. Das Bit wird in Abhangigkeit davon 
auf Eins oder Null gesetzt, ob es in dera Datenblock eine un- 
grade oder gerade Anzahl von Einsen gibt. Wenn der Daten- 
block von seinem Speicherplatz ausgelesen wird, wird die An- 

10 zahl der Einsen in dem Block mit dem Paritatsbit verglichen. 
Eine Diskrepanz zwischen den Werten zeigt an, daS der Daten- 
block verfalscht wurde. Die fiber e ins timmung der Werte zeigt 
an, daS entweder keine Verfalschung aufgetreten ist oder 
zwei (oder vier . ..) Bits geandert wurden. Da die zuletzt 

15 genannten Falle sehr geringe Wahrscheinlichkeiten haben, 
liefert die Pari tat einen zuverl&ssigen Hinweis dafur, ob 
Daten verfalscht wurden. Fehlerkorrigierende Codes (Error 
correcting codes-ECCs) sind paritatsabhangige Mechanismen, 
welche zusatzliche Informationen far jeden Datenblock ver- 

20 folgen. Die zusatzlichen Informationen ermflglichen das Iden- 
tifizieren und Korrigieren des (der) verfalschten Bit(s) . 

Paritats/ECC-Mechanismen wurden bei Cache -Speichern, 
Speichern und ahnlichen Datenspeicheranordnungen umfangreich 
eingesetzt. Diese Strukturen haben relativ hohe Datenspei- 

25 cherknotendichten und sind bereits bei den derzeitigen Ab- 
messungen der Bauelemente anfSllig fxir weiche Fehler. Ihre 
lokalisierten Arraystrukturen machen es relativ einfach, Pa- 
ritats/ECC-Mechanismen zu implementieren. Zu den weiteren 
Schaltungen auf einem Prozessor gehoren Datenpfade, eine 

30 Steuerlogik, eine Ausftihrungslogik und Register ("Ausfuh- 
. rungskern bzw. execution core") . Die unterschiedlichen 
Strukturen dieser Schaltungen und ihre Verteilung uber den 
Prozessorchip machen es schwieriger, Paritats/ECC-Mechanis- 
men anzuwenden. 



p • ♦**• ♦ ♦ • * • 

• • • • • « • 

• •A* • ♦ • • • « 

ft • 

, ftft ft • • ftft ~ • • • ♦ 



OE 100 85 324 T1 



Eine Moglichkeit zum Erfassen von weichen Pehlern in ei- 
nem Ausfuhrungskern besteht darin, Befehle auf doppelten 
Ausftihrungskernen zu verarbeiten und die von beiden bestimm- 
ten Ergebnisse Befehl ffir Befehl zu vergleichen ( "redundante 
5 Ausffihrung") . Beispielsweise enthait ein Computersystem zwei 
separate Prozessoren, die derart gebootet werden kdnnen, daS 
sie entweder in einem symmetrischen Mehrprozessorbe- 
triebs( n symmetric multi-processing-SMP n ) -Betriebsmodus oder 
einem funktional redundanten Priif ("Functional redundant 

10 Check-PRC") -Betriebsmodus arbeiten k6nnen. Im SMP-Modus wird 
die Befehlsausfuhrung auf die Prozessoren verteilt, um eine 
hohere Gesamtleistungsf&higkeit gegentiber Einprozessorsyste- 
men zu erzielen. Im FRC-Modus fuhrt ein Prozessor einen Code 
normal aus, tmd ein zweiter Prozessor fuhrt identische Be- 

15 fehle an den gleichen Daten aus, die dem ersten Prozessor 
geliefert werden. Wenn der zweite Prozessor eine Diskrepanz 
zwischen seinen Operationen und denjenigen des ersten Pro- 
zessors erfaSt, meldet er einen Pehler. Der Betriebsmodus 
kann nur durch Rilcksetzen (resetting) des Computersystems 

20 zwischen dem SMP-Modus und dem FRC-Modus umgeschaltet wer- 
den. 

Die Zweiprozessorvariante ist kostspielig (im Hinblick 
auf das Silizium) . Daruber hinaus ist die zum Vergleich der 
Ergebnisse ausgefilhrte Signalgebung zwischen den Prozessoren 

25 zu langsam, um verf&lschte Daten zu erfassen, bevor sie ar- 
chitektonische Zustande des Prozessors aktualisieren. In- 
folge dessen ist diese Variante nicht geeignet, um die er- 
faBteri weichen Fehler zu korrigieren. 

Ein weiteres Computersystem ermoglicht eine Ausfiihrungs- 

30 redundanz, indem zwei Ausftihrungskerne auf einem Einprozes- 
sorchip verwendet werden. Die beiden Ausfuhrungskerrie arbei- 
ten im FRC-Modus, und ECC-geschutzte Fixpunkt- bzw. Check - 
pointregister speichern Informationen fiber Zwischenzust&nde 
des Prozessors. Wenn ein Fehler in einem Codesegment erfa&t 

35 wird, fxihrt der Prozessor eine Mikrocoderoutine aus, um mit 
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Hilfe der Checkpointregister den letzten uhverfalschten Pro- 
zessorzustand fur den Prozessor wiederherzustellen. Die 
Steuerung wird dann an das Codesegment zuruckgegeben, das 
mit dem (den) Befehl (en) beginnt, der (die) auf den Pehler 
5 gestoSen war (en) . Die Fehlerbehebungsmikrocoderoutine ist 
auf dem Prozessorchip gespeichert, wodurch deren Aktualisie- 
rung oder Modif izierung schwierig ist. AuSerdem sind Routi- 
nen, die flexibel genug sind, um ein breites Spektrumi von 
Fehlern zu korrigieren in der Regel relativ komplex. Mikro- 
10 codeimplementierungen dieser Routinen belegen einen be- 
trachtlichen Bereich auf dem Prozessorchip. 

Die vorliegende Erfindung wendet sich diesen und anderen 
M&ngeln von erhSltlichen hochgradig zuveriassigen Computer - 
systemen zu. 

15 

Zusammenfassende Darstellung der Erfindung 

Die vorliegende Erfindung betrif ft einen Firmwaremecha- 
nismus, um weiche Fehler in einem Prozessor mit zwei Ausftih- 
rungskernen (dual execution core processor) zu beheben, wel- 
20 cher die AusfGhrungskerne im redundanten Modus (redundant 
mode) und im geteilten Modus (split mode) arbeiten lassen 
kann. 

Ein erfindungsgemafies Verfahren erfafit einen weichen 
Fehler, wenn der Prozessor die Ausfilhrungskerne im redundan- 

25 ten Modus arbeiten lcLSt. Auf jedem Ausfuhrungskern wird eine 
Fehlerbehebungsroutine ausgeftihrt, um unverf&lschte Daten 
aus dem Ausfuhrungskern zugeordneten Speicherstrukturen zu 
sichern. Mit Hilfe der gesicherten Daten werden die Prozes- 
sorzustandsdaten wiederhergestellt, und der erste und zweite 

30 Ausfuhrungskern werden mit Hilfe der Prozessorzustandsdaten 
initialisiert. 

Ein erf indungsgem&Ses Computersystem enth&lt einen Pro- 
zessor mit zwei AusfQhrungskernen und einen die Fehlerbehe- 
bungsroutine speichernden nicht flflchtigen Speicher. Die 
35 Fehlerbehebungsroutine wird aufgerufen, wenn der Prozessor 
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einen weichen Fehler erfaSt, wShrend er in dem redundanten 
Modus arbeitet. Die Routine schaltet den Prozessor auf den 
geteilten Modus urn, wobei jeder Ausfuhrungskem in diesem 
Modus unverfalschte Daten in seinen zugeordneten Speicher T 
5 strukturen an einem bestimmten Speicherplatz sichert. Die 
Routine stellt die Prozessorzustandsdaten auf der Basis der 
gesicherten Daten wieder her. 

Kurzbeschreibung der Zeichnungen 

10 Die vorliegende Erfindung wird unter Bezugnahme auf die 

folgenden Zeichnungen verst&ndlich, in denen auf gleiche 
Elemente mit gleichen Zahlen hingewiesen wird. Diese Zeich- 
nungen sollen ausgewahlte Ausftihrungsbeispiele der vorlie- 
genden Erfindung veranschaulichen und dienen nicht zur Ein- 

15 schrankung des Schutzbereichs . 

Pigur 1 zeigt ein Blockschaltbild eines Ausfoihrungsbei- 
spiels eines fur die Implementierung der vorliegenden Erfin- 
dung geeigneten Computersystems . 

Figur 2A zeigt ein Blockschaltbild eines Ausfuhrungsbei- 

20 spiels des Prozessors mit zwei Ausfuhrungskernen gem&S Figur 
1. 

Figur 2B zeigt ein Blockschaltbild eines Ausfuhrungsbei- 
spiels der FET-Stufe des Prozessors gemaS Figur 2A. 

Figur 2C zeigt ein Blockschaltbild eines Ausfuhrungsbei- 
25 spiels der Prufeinheit des Prozessors gemaS Figur 2A. 

Figur 3 zeigt ein Ablaufdiagramm, das ein Ausfxihrungs- 
beispiel eines erf indungsgemiSen Verfahrens zum Beheben von 
weichen Fehlern darstellt. 

Figur 4 zeigt ein Ablaufdiagramm, das ein Ausfuhrungs- 
30 beispiel einer von einem AusfQhrungskern implementierten 
Fehlerbehebungsroutine darstellt. 

Figuren 5A und 5B zeigen Blockschaltbilder, welche Aus- 
fuhrungsbeispiele far verschiedene Mechanismen zum Abstimmen 
(reconciling) gesicherter Daten zur Behebung von weichen 
35 Fehlern darstellen. 
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Figur 6 zeigt ein Ablaufdiagramm, das ein Ausfuhrungs- ■ 
beispiel des Datenabstinunungsmechanismusses gem^S Figur 5A 
darstellt. 

Figur 7 zeigt ein Blockschaltbild eines Ausfuhrungsbei- 
5 spiels eines AusfCihrungskerns, welcher eine Clusterebenenre- 
dundanz ermoglicht, wenn ein Prozessor mit zwei Kernen im 
geteilten Modus betrieben wird. 

Detaillierte Beschreibung der Zeichnungen 

10 In der folgenden Beschreibung sind zahlreiche spezielle 

Details angegeben, urn ein vollstandiges Verst&ndnis der Er- 
findung zu ermoglichen. Fur den Durchschnittsf achmann, dem 
diese Beschreibung zugute kommt, ist jedoch klar, daS die 
Erfindung ohne diese speziellen Details ausgefihrt werden 

15 kann. Ferner wurden verschiedene bekannte Verfahren, Proze- 
duren, Komponenten und Schaltungeh nicht im Detail beschrie- 
ben, urn die Aufmerksamkeit auf die Merkmale der vorliegenden 
Erfindung zu richten. 

Die vorliegende Erfindung schafft eine flexible M6glich- 

20 keit, um weiche Fehler in einem Prozessor mit zwei Kernen zu 
korrigieren, welcher dynamisch zwischen einem redundanten 
Modus und einem geteilten Modus hin und her geschaltet wer- 
den kann. Im redundanten Modus lcifit der Prozessor die Aus- 
fiihrungskerne im Lock-Step bzw. Verriegelungsschritt an 

25 identischen Codesegmenten arbeiten und vergleicht die Ergeb- 
nisse, tun Fehler zu erkennen. Im geteilten Modus k6nnen die 
Ausfuhrungskerne Befehle unabhcLngig voneinander verarbeiten, 
z. B. k6nnen die Ausfuhrungskerne verschiedene Befehle in 
einem vorgegebenen Taktzyklus bearbeiten. 

30 Bei einem erf indungsgemaSen Ausfuhrungsbeispiel kann der 

redundante Modus ein hochgradig zuverlSssiger (high reliabi- 
lity-HR) Prozessorausfuhrungsmodus sein, der die Gefahr von 
weichen Fehlern bei der Ausf&hrung von kritischen Codeseg- 
menten verringert. Der geteilte Modus kann ein Hochlei- 

35 stungs(high perf ormance-HP) -Prozessorausfiihrungsmodus sein, 



» » » • • * » • t 



• • « » • * * • • 

• MM 



0£ 100 85 324 T1 



der verfugbar ist, um ausgewahlten Code schneller zu verar- 
beiten, indem die dem ausgew&hlten Code verfugbaren Ausfiih- 
rungsressourcen erhoht werden. Der geteilte Modus kann fer- 
ner nur fur ausgew£hlte Zwecke verfugbar sein, beispiels- 
5 weise fur die Fehlerbehebung oder fur das Bootstrapping des 
Prozessors. Der wesentliche Aspekt des geteilten Modus be- 
steht darin, daS es dieser den Ausfuhrungskernen ermoglicht, 
"unabh&ngig" zu arbeiten, d. h. jeder kann verschiedene Be- 
fehle in einem vorgegebenen Taktzyklus ausfuhren. 

10 GemfiE der vorliegenden Erfindung wird eine Fehlerbehe- 

bungsroutine in. einem nicht flCichtigen Speicher gespeichert. 
Auf die Fehlerbehebungsroutine wird zugegriffen, wenn der 
eine ProgrammteilprozeS bzw. einen Programm- Thread im redun- 
danten Modus ausfuhrende Prozessor einen weichen Fehler er- 

15 fafit. Der Fehler kann durch eine Diskrepanz zwischen den Er- 
gebnissen in den beiden Ausfflhrungskernen angezeigt werden. 
Die Routine schaltet den Prozessor auf den geteilten Modus 
um, in welchem Modus jeder Ausfuhrungskern seine zugehorigen 
Speicherplatze auf verfalschte Daten hin untersucht. tfnver- 

20 falschte Daten werden an einen bestimmten Speicherplatz ko- 
piert, und es werden genugend Prozessorzustandsdaten aus den 
unverf&lschten Daten wiederhergestellt, um den unterbroche- 
nen ProgrammteilprozeS wiederauf zunehmen. Die Fehlerbehe- 
bungsroutine bzw. Wiederherstellungsroutine initialisiert 

25 die Ausfiihrungskerne mit den wiederhergestellten Prozessor- 
zustandsdaten . 

Bei einem erf indungsgemaSen AusfGhrungsbeispiel sind 
verschiedene jedem Ausfilhrungskern zugeordnete Ressourcen 
paritatsgeschfttzt, und die Wiederherstellungsroutine imple- 

30 mentiert eine ParitStsprufung, um verfalschte Daten in einem 
Ausftihrungskern zu erkennen. Zu den paritatsgeschutzten Res- 
sourcen kSnnen beispielsweise Universalregister, Gleitkomma- 
register, Steuer- und Statusregister, Cache -Speicher niedri- 
ger Ebene (low level caches) und der gleichen gehoren. Im 

35 allgemeinen kann jede zum Speichern von Prozessor zustandsda- 
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ten verwendete Struktur paritatsgeschiltzt sein. Der Umfang 
des Schutzes hangt von den Zuverl&ssigkeitsanf orderungen des 
Systems ab. 

Bei einem weiteren erf indungsgemSSen Ausftihrungsbeispiel 
5 erkennt die Fehlerbehebungsroutine unverf&lschte Daten aus 
einem Oder aus beiden Ausfaihrungskernen und sichert diese an 
einem bestimmten Speicherplatz. Die AusfGhrungskerne werden 
mit aus den gesicherten Daten wiedergewonnenen Prozessorzu- 
standsdaten initialisiert. Beispielsweise kdnnen beide Aus- 

10 ffthrungskerne mit den Prozessorzustandsdaten von dem Ausfxlh- 
rungskern initialisiert werden, welcher nicht von dem wei- 
chen Fehler betroffen war. Alternativ kdnnen unverf&lschte 
Daten von beiden Ausfiihrungskernen an verschiedenen Spei- 
cherpiatzen gesichert werden, und Daten von einem Speicher- 

15 platz k6nnen verwendet werden, urn die verf&lschten Daten an 
dem anderen Speicherplatz zu ersetzen. Bei dieser Alterna- 
tive wird jeder Ausftihrungskern mit einer Kopie der Prozes- 
sorzustandsdaten aus seinem bestimmten Speicherplatz initia- 
lisiert. Diese Alternative verringert die Gefahr, daS ein 

20 wShrend des Initialisierungsprozesses erzeugter weicher Feh- 
ler nicht erkannt wird, indem separate S&tze von Prozessor- 
zustandsdaten gefiihrt werden. Die Wiedergewinnungsroutine 
synchronisiert die Ausfiihrungskerne fur die Ruckkehr zum re- 
dundanten Modus nach der Erkennung und der Abstimmung von 

25 gesicherten Prozessorzustandsdaten aus den Ausfuhrungskernen 
im geteilten Modus. 

Bei einem weiteren erf indungsgemaSen Aus fiihrungsbei spiel 
kann der Prozessor derart konfiguriert sein, daS er einen 
gewissen Grad an Redundanz innerhalb der einzelnen Ausfiih- 

30 rungskerne im geteilten Modus beh&lt. Beispielsweise kdnnen 
die Ausfdhrungsressourcen jedes Ausffthrungskerns fur Opera - 
tipnen im geteilten Modus logisch organisiert sein als re- 
dundante Ausfiihrungscluster . Die Ausfuhrungscluster bearbei- 
ten den gleichen Befehl im Lock-Step bzw. Verriegelungs- 

35 schritt, wenn sich der Prozessor im geteilten Modus befindet 
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und Ergebnisse von den redundanten Clustern k&nnen vergli- 
chen werden, um weiche Fehler innerhalb eines einzelnen Aus- 
fiihrungskerns zu erfassen. 

Figur 1 zeigt ein Blockschaltbild eines Ausfuhrungsbei- 
5 spiels eines erf indungsgemafcen Computersystems 100. Das Com- 
putersystem 100 enthalt einen Prozessor 102, einen nicht 
flCkchtigen Speicher 104, einen dynamischen Speicher 106 und 
eine Systemlogik 108. Die Systemlogik 108 leitet Datenflber- 
tragungen zwischen dem Prozessor 102 f dem nicht fldchtigen 

10 Speicher 104 und dem dynamischen Speicher 106 weiter. Eine 
Fehlerbehebungsroutine 190 ist in dem nicht flflchtigen Spei- 
cher 104 gespeichert, obwohl Teile der Routine 190 in den 
dynamischen Speicher 106 kopiert (schattenverarbeitet - sha- 
dowed) werden konnen. 

15 Das beschriebene Ausfuhrungsbeispiel des Prozessors 102 

enthalt einen ersten Ausftthrungskern 110(a), einen zweiten 
Ausftthrungskern 110(b), entsprechende Kernstatusregister 
(core status register - CSRs) 120(a), 120(b) und eine PrCif- 
einheit 130. Jedes CSR 120(a), 120(b) enth&lt ein Kernsta- 

20 tusbit (core status bit - CSB) 124 (a) bzw. 124 (b) . Eine Bus- 
schnittstelle 140 zur Daten/Befehlsubertragung zu und von 
dem Prozessor 102 ist ebenfalls dargestellt. Jeder Ausffih- 
mngskern 110(a), 110(b) enthalt Ressourcen, um Befehle ab- 
zurufen (fetch) , zu decodieren, auszufuhren und zu verab- 

25 schieden bzw. abzulegen (retire) . In der folgenden Beschrei- 
bung sind die Bezugnahmen auf die AusfGhrungskerne 110 (a) , 
110(b) nicht mit einem Index versehen, sofern die Kommentare 
nicht fflr einen speziellen Ausfuhrungskern 110 gelten. Be- 
zugnahmen auf die CSRs 120, die CSBs 124 und alle weiteren 

30 Ressourcen, die in den AusfCihrungskemen 110 doppelt vorlie- 
gen, werden in ahnlicher Weise behandelt. 

Im redundanten Modus fuhren die Ausfuhrungskerne 110 die 
gleichen Befehle von einem Codesegment im Lock-Step bzw. 
Verriegelungsschritt aus, und die Ergebnisse werden von der 

35 Prufeinheit 130 verglichen, um Fehler in einem Ausfuhrungs- 
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kern 110 zu erfassen. Im geteilten Modus arbeiten die Aus- 
ffthrungskerne 110 "unabhangig" . Das heiSt, jeder kann ver- 
schiedene Befehle von einem oder von mehreren Codesegmenten 
ausfilhren. Wie zuvor erw&hnt, kann der geteilte Modus einen 
5 programmierbaren Hochleistungsmodus fdr ausgew&hlte Pro- 
gramme zur Verfugung stellen, da die in dem Prozessor ver- 
fugbaren Ausfuhrungsressourcen im geteilten Modus effektiv 
verdoppelt sind. 

Der Unabhangigkeitsgrad zwischen den AusfCihrungskernen 

10 110 kann im geteilten Modus bei verschiedenen Ausfuhrungs- 
formen des Prozessors 102 variieren. Bei einem Ausfuhrungs- 
beispiel kann der Prozessor 102 als ein auf einem einzigen 
Prozessorchip implementiertes SMP-System arbeiten, wenn er 
sich im geteilten Modus befindet. In diesem Fall arbeitet 

15 jeder Ausfuhrungskern 110 als separater Prozessor, der nur 
den Prozessorchip und bestimmte Komponenten eines Speicher- 
systems mit anderen gemeinsam nutzt. Diese Ausf uhrungsf orm 
des Prozessors 102 ist besonders vorteilhaft fCir einen Code, 
welcher einen Hochleistungsprozessor erfordert. Eine andere 

20 Ausf uhrungsf orm des Prozessors 102 kann einen gewissen Kopp- 
lungsgrad zwischen den Ausfuhrxmgskernen 110 im geteilten 
Modus unterstiltzen, indem geeignete Kan&le zur gemeinsamen 
Nutzung von Prozessorzustandsinformationen oder von Ausfiih- 
rungskernressourcen vorgesehen werden. 

25 Das Umschalten zwischen dem redundanten und dem geteil- 

ten Modus kann unter der Steuerung von Hardware, Software 
oder Firmware erfolgen. Bei einer Software - und Firmware 
gesteuerten Umschaltung konnen Modusumschalt befehle von den 
verschiedenen ausgefuhrten Programmteilprozessen, einem Be- 

30 triebssystem (operating system - OS) -Scheduler bzw. -Steuer- 
programm, Unterbrechungsbehandlern, einer Firmwareroutine 
oder von ahnlichen Quellen geliefert werden, Bei Hardware 
gesteuerten flberg&ngen kann ein Umschalten in AbMngigkeit 
von erfafiten Bedingungen, zum Beispiel der Ausfuhrung eines 

35 bestimmten Befehlstyps, der Erfassiing einer Diskrepanz zwi- 
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schen Ergebnisses in verschiedenen Ausfuhrungskernen Oder 
der Auflosung der Diskrepanz, ausgeldst werden. 

Bei einem erf indungsgem&Sen Ausfuhrungsbeispiel geben 
die CSBs 124 (a) und 124 (b) die Zustande der Ausfuhrungskerne 
5 110(a) bzw. 110(b) an urid die CSBs 124(a) und 124(b) geben 
zusammen den Modus an, in welchem der Prozessor 102 arbei- 
tet. Der Ausfuhrungsmodus des gesamten Prozessors kann mit 
Hilfe eines einzigen Prozessorstatusbits (processor status 
bit - PSB) 128 verfolgt werden, auf das von dem mit gestri- 

10 chelten Linien dargestellten Kastchen in Figur 1 hingewiesen 
wird. Bei einem Ausfuhrungsbeispiel wird das CSB 124 auf ei- 
nen ersten Wert, z. B. Eins, gesetzt, wenn der Prozessor 102 
im redundanten Modus arbeiten soil, und wird auf einen zwei- 
ten Wert, z. B. Null, gesetzt, wenn der Prozessor 102 im ge- 

15 teilten Modus arbeiten soli. Das CSB 124 kann angepaSt wer- 
den, wenn ein Modusumschaltbefehl das Umschalten zwischen 
dem redundanten und dem geteilten Modus auslost. Verschie- 
dene Ressourcen im Prozessor 102 Sndern ihre Operationsweise 
entsprechend ihrem Ausffihrungsmodus. Bei der beschriebenen 

20 Ausftihrungsform des Prozessors 102 wird das Abrufen von Be- 
fehlen, das Verabschieden von Befehlen und das Priifen von 
Ergebnissen im redundanten Modus und im geteilten Modus un- 
terschiedlich gehandhabt, und die entsprechenden Ressourcen 
passen ihre Operationsweise an die Zust&nde der CSBs 124 

25 (oder des PSB 128) an, 

Eine Ausfuhrungsf orm. des Prozessors 102 mit zwei Ausfiih- 

rungsmoden ist in der US-Patentanmeldung Nr. , 

mit dem Titel "Mikroprocessor With High Reliability Opera- 
ting Mode" beschrieben, die am gleichen Tage wie die vorlie- 

3 0 gende Anmeldung eingereicht wurde. 

Figur 2A zeigt eine Ausf\lhrungsf orm des Prozessors 102 
detaillierter . Bei der dargestellten Ausfuhrungsf orm ist je- 
der Ausfuhrungskern 110 als Serie von Stufen in einer Be- 
fehletausfuhrungspipeline dargestellt. Jede Stufe entspricht 

35 einer oder mehreren Operationen, die von den Ausfxihrungsker- 
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nen 110 zum Ausfuhren ihrer Befehle implementiert sind. Al- 
ternativ sind die Pipelinestufen so zu verstehen, daS sie 
die Logik reprasentieren, welche die angegebene Operation 
ausffthrt. Befehle und Daten werden den Ausfflhrungskernen 110 
5 von einem Speichersystem 270 geliefert. Das Speichersystem 
270 stellt den dynamischen Speicher 106 und beliebige dazwi- 
schenliegende Cache -Speicher dar. Beispielsweise stellt der 
Cache-Speicher 280 einen Teil des Speichersysteras 270 dar, 
in den Ergebnisse von ausgefuhrten Befehlen geschrieben wer- 

10 den. Der Cache-Speicher 280 kann auf dem gleichen Chip wie 
^ der Prozessor 100 angeordnet sein Oder er kann auf einem an- 

deren Chip angeordnet sein. 

Bei der beschriebenen Ausffihrungsf orm des Prozessors 102 
ist jeder Ausfiihrungskern 110 unterteilt in eine Ab- 

15 ruf (fetch-FET) -Stufe 210, eine Decodier (DEC) -Stufe 220 r eine 
Register (REG) -Stufe 230, eine Ausfuhr (execute-EXE) -Stufe, 
eine Erf asse (detect -DET) -Stufe 250 und eine Verabschie- 
dungs (retirement -RET) -Stufe 260. In der FET-Stufe 210 wird 
ein Befehl oder werden mehrere Befehle von dem Speichersy- 

20 stem 270 abgerufen. Die abgerufenen Befehle werden in der 
DEC- Stufe 220 in Mikrooperationen (jiops) decodier t und von 
der bzw, von den Mikrooperationen spezif izierte Quelloperan- 
£ den werden in der REG-Stufe 230 abgerufen. Die Mikroopera- 

tionen) wird (werden) an den abgerufenen Operanden in der 

25 EXE-Stufe 240 ausgefCthrt, und von der (den) Mikroopera- 
tionen) verursachte Ausnahmen werden in der DET-Stufe 250 
gemeldet. Die Mikrooperation(en) wird (werden) in der RET- 
Stufe 260 verabschiedet , wenn keine Ausnahmen erfaEt werden. 
Bei der beschriebenen Ausfilhrungsform werden die Ergebnisse 

30 von (einer) verabschiedeten Mikrooperation(en) uber den Ver- 
abschiedungskanal (retirement channel) 264 in den Cache- 
Speicher 280 geschrieben. 

In dieser Beschreibung werden die Begriffe Befehl, Be- 
fehlsbiindel und Makrobefehl untereinander austauschbar ver- 

35 wendet, genauso wie Mikrooperation und Befehlssilbe. Letz- 
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tere bezeichnen von den Ausfuhrungseinheiten des Prozessors 
erkannte Befehle. Erstere bezeichnen Befehle in derjenigen 
. Form, in welcher sie dem Prozessor geliefert werden. Bei ei- 
nigen Ausffihrungsbeispielen kann es einen geringen oder kei- 
5 nen Unterschied zwischen diesen Einheiten geben. 

Ausfuhrungsf ormen des Prozessors 102 kdnnen einen Puffer 
zur Entkoppelung der eingangsseitigen bzw. Front-End- 
Stufe(n) (FET oder FET und DEC) von den ausgangsseitigen 
bzw. Back- End- Stufen (DEC # REG, EXE, DET und RET oder REG, 

10 EXE, DET und RET) aufweisen. Der Puffer speichert abgerufene 
(oder abgerufene und decodierte) Befehle vorQbergehend . Dies 
ermoglicht es, daS eingangsseitige bzw, Front-End-Operatio- 
nen weiterablauf en kdnnen, selbst wenn ausgangsseitige bzw. 
Back-End-Operationen angehalten (stalled) oder anderweitig 

15 verzdgert sind. Es ermSglicht auch das Fortschreiten von 
Back-End-Operationen, wenn Front-End-Operationen verzogert 
sind. Bine Ausftthrungsform des Prozessors 102 verwendet ei- 
nen Entkopplungspuf fer zum Korrigieren von im redundanten 
Modus er fasten Fehlern. 

20 Die vorliegende Erfindung erfordert nicht, daS der Pro- 

zessor 102 in eine bestiirante Menge von Pipelinestufen unter- 
teilt wird. Beispielsweise kann eine beschriebene Stufe in 
zwei oder mehr Stufen unterteilt werden, van Zeitvorgaben zu 
berftcksichtigen oder h6here Prozessortaktgeschwindigkeiten 

25 zu erm6glichen. Alternativ k6nnen zwei oder mehr Stufen zu 
einer einzigen Stufe zusammengef aSt werden. Andere Ausftih- 
rungsformen k6nnen einen Entkoppelungspuf fer enthalten oder 
nicht. Noch andere Ausfuhrungsf ormen k6nnen Hardware zum 
Verarbeiten von Befehlen auSerhalb der Reihenfolge (out-off- 

30 order) enthalten. Die beschriebene Pipeline liefert nur ein 
Beispiel dafur, wie Operationen in einem Prozessor zur An- 
wendung der vorliegenden Erfindung aufgeteilt werden konnen. 

Fflr jeden Ausfuhrungskern 110 sind ferner Sta- 
tus/Steuer (status/control - S/C) -Register 234, Datenregister 

35 238 und ein Daten-Cache-Speicher 244 dargestellt. Die S/C- 
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Register 234 speichern Informationen, die die Operations- 
weise des Ausfuhrungs kerns 110 regeln. Beispielsweise ent- 
halten die S/C-Register 234 iiblicherweise das CSR 120 (und 
das CSB 124) . Die Datenregister 238 speichern zur Verwendung 
5 von verschiedenen Ressourcen in dem Ausfflhrungskern 110 vor- 
gesehene Operanden, und der Daten- Cache- Speicher 244 ffihrt 
eine Zwischenspeicherung von Operanden zwischen dem Spei- 
chersystem 270 und anderen Ressourcen in dem Ausfuhrungskern 
110 aus. Je nach den Zeitvorgaben kann der Daten-Cache-Spei- 

10 cher 244 Operanden an die Datenregister 23 8 , an Ausftihrungs- 
ressourcen in der EXE-Stufe 240 oder an beide liefern. Bei 
einer erfindungsgemSSen Ausfiihrungsform stellt jeder Ausfuh- 
rungskern 110 eine Art von Paritatsschutz ffcr die S/C-Regi- 
ster 234, die Datenregister 238 und den Cache -Speicher 244 

15 zur Verfugung. 

Die Ausfilhrungskerne 110(a) und 110(b) sind synchroni- 
siert und bearbeiten identische Befehlen im Lock-Step bzw. 
Verriegelungsschritt r wenn sich der Prozessor 102 im redun- 
danten Modus befindet. Im geteilten Modus kdnnen die Ausffih- 

20 rungskerne 110(a) und 110(b) verschiedene Befehle unabhSngig 
bearbeiten. Wie zuvor erwShnt, k6nnen verschiedene Ausfuh- 
rungsformen des Prozessors 102 verschiedene Grade der Koor- 
dinierung zwischen den Ausfiihrungskernen 110(a) und 110(b) 
im geteilten Modus unterstutzen, wie von dem gestrichelt 

25 dargestellten Pfeil in Figur 2A angezeigt wird. Wenn der 
Prozessor 102 beispielsweise im geteilten Modus als Ein- 
Chip-SMP-System arbeitet, wird eine Koordinierung zwischen 
den Ausfuhrungskernen 110 (a) und 110 (b) hauptsachlich wah- 
rend der Modenumschaltvorgange bendtigt. Bei anderen Ausfiih- 

3 0 rungsformen des Prozessors 102 kdnnen die Ausfuhrungskerne 
110(a) und 110(b) Prozesse behandeln, welche eng gekoppelt 
sind. Diese Ausfuhrungsf ormen unterstCitzen eine gemeinsame 
Benutzung von Daten durch die S/C-Register 234 (a) tind 
234(b), die Datenregister 238(a) und 238(b) und die Daten- 

35 Cache Speicher 244(a) und 244(b), sowie eine gewisse Koordi- 
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nierung der Operationen zwischen den verschiedenen Pipeline- 
stufen. 

Figur 2B zeigt eine Ausfuhrungsform der FET-Stufen 
210(a), 210(b), die geeignet ist, um den Ausfilhrungskernen 
5 110(a) bzw. 110(b) Befehle im redundanten Modus und im ge- 
teilten Modus zu lief em. Jede FET-Stufe 210 enthalt einen 
Befehlszeiger (instruction pointer - IP) -Auswahl-MUX 212 und 
einen Befehls- Cache -Speicher 214 , der mit der DEC-Stufe 220 
gekoppelt ist. Die S/C-Register 234 enthalten ein IP-Regi- 

10 ster 236, das mit Hilfe von Software derart initialisiert 
werden kann, daS es den nachsten auszufuhrenden Befehl an- 
zeigt. AuEerdem enth&lt die FET-Stufe 210(b) einen MUX 216 
am Ausgang des Cache -Speichers 214(b) . Der MUX 216 wird von 
den CSBs 124 liber das UND-Gatter 218 gesteuert. Bei einem 

15 erf indungsgemafien Ausfiihrungsbeispiel kann der Befehls- 

Cache -Speicher 214 mit Hilfe eines paritatsabhangigen Sche- 
mas wie ECC geschutzt werden. 

Der MUX 212 empfSngt IPs an seinen DateneingSngen von 
verschiedenen Quellen, einschlieSlich des IP-Registers 236 . 

20 In Abh&ngigkeit von einem Signal an seinem Steuereingang 
w^hlt der MUX 212 einen IP, der den nachsten aus dem Cache- 
Speicher 214 abzurufenden Befehl anzeigt. Im geteilten Modus 
sind die CSBs 124 auf Null gesetzt und der MUX 216 ilbertragt 
den von dem Befehls-Cache-Speicher 214(b) gelieferten Be- 

25 fehl. In diesem Modus werden die IP-Register 236(a) und 
236(b) unabhangig voneinander initialisiert und aktuali- 
siert, und die Cache-Speicher 214(a) und 214(b) fGhren ent- 
sprechende Befehle den DEC-Stufen 220(a) bzw. 220(b) zu. Im 
redundanten Modus sind die CSBs 124 auf Bins gesetzt und der 

30 MUX 216 liefert den Befehl vom Cache 214(a) an die DEC-Stufe 
220(b). 

Eine alternative Ausfuhrungsform der FET-Stufen 210 ver- 
wendet keinen MUX 216. Statt dessen werden die IP-Register 
236(a), 236(b) und die Cache-Speicher 214(a), 214(b) fdr den 
35 redundanten Modus auf den gleichen Zustand initialisiert, 
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und die FET-Stufen 210 , einschlieSlich der Cache-Speicher 
214, arbeiten im Lock-Step bzw. Verriegelungsschritt . Der 
Fachmann auf dem Gebiet des Prozessordesigns, dem diese Be- 
schreibung zugute kommt, wird weitere Variationen der FET- 
5 Stufen 210 erkennen, die verwendet werden kdnnen, urn far die 
Ausffthrungskerne 110 ein unabhangiges und Lock-Step bzw. 
Verriegelungsschritt-Befehlsabrufen zu implement ieren, ent- 
sprechend dem Ausfuhrungsmodus, in dem der Prozessor 102 ar- 
beitet. 

10 Figur 2C zeigt ein Blockschaltbild, das eine erfindungs- 

gem&Se Ausftihrungsf orm der Prftfeinheit 130 darstellt. Die 
dargestellte Ausfuhrungsform der Prufeinheit 130 enth&lt n n" 
Komparatoren 290(1) bis 290 (n), ein ODER-Gatter 294 und ein 
UND-Gatter 298. F&r jede Ausffihrungseinheit in einem Ausfilh- 

15 rungskern 110 ist ein Komparator 290 vorgesehen. Beispiels- 
weise kann eine Ausfuhrungsform des Prozessors 102 eine 
Ganzzahlausffihrungseinheit (integer execution unit-EU) , eine 
Gleitkommaausffihrungseinheit (floating point execution unit- 
. FPU) # eine SpeicherausfGhrungseinheit (memory execution 

20 unit-MEO) und eine Verzweigungsausfuhrungseinheit (branch 
execution unit-BRU) in der EXE-Stufe jedes Ausffthrungskerns 
110 enthalten. Bei dieser Ausfuhrungsform enth&lt die Pruf- 
einheit 130 vier Komparatoren 290. Die Komparatoren 290(1), 
290(2), 290(3) und 290(4) uberwachen die Ausgange der IEUs, 

25 FPUs, MEUs bzw. BRUs von den Ausfuhrungskernen 110(a) und 
110(b) . 

Bei der beschriebenen Ausfuhrungsform der Prufeinheit 
13 0 erzeugt jeder Komparator 290 einen logischen Wert von 
Null, wenn die an seine Eingange angelegten Ergebnisse uber- 

30 einstimmen, und einen logischen Wert von Eins, wenn die Aus- 
fxlhrungsergebnisse nicht libereinstimmen. Bei einer Ausfuh- 
rungsform der Prufeinheit 130 sind die Komparatoren 290 
Selbstprtif komparatoren (self -check comparators) . Das ODER- 
Gatter 294 erzeugt einen logischen Wert von Eins, wenn ir- 

35 gendeiner der Komparatoren 290 anzeigt, daS seine entspre- 
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chenden Ausfiihrungsergebnisse nicht ubereinstimmen. Das Aus- 
gangssignal des ODER-Gatters 294 dient als FEHLER-Signal ,. 
wenn das UND-Gatter 298 aktiviert ist. Bei der beschriebenen 
Ausfuhrungsform ist dies der Fall, wenn beide GSBs 124 auf 
5 Eins gesetzt sind, d. h., wenn sich der Prozessor 102 im re- 
dundanten Modus befindet. 

Der Fachmann auf dem Gebiet des Prozessordesigns, dem 
die vorliegende Beschreibung zugute kommt, erkennt weitere 
Abwandlungen der PrGfeinheit 130, die aktiviert werden kann, 

10 um Ergebnisse in den Ausfuhrungskernen 110 zu flberwachen, 
wenn sich der Prozessor 102 im redundanten Modus befindet. 

Die vorliegende Erf indung stellt einen Firmwarebasierten 
Wiederherstellungsmechanismus zur Verfugung, der alleine 
oder in Kombination mit Hardware- mid Software basierten 

15 Wiederherstellungsmechanismen realisiert werden kann, um den 
Prozessor wieder in einen fehlerfreien Zustand zu versetzen, 
wenn eine Diskrepanz im redundanten Modus erfaBt wird. Es 
ist unwahrscheinlich, daS die weichen Fehler, denen die vor- 
liegende Erf indung gilt, in beiden Ausfuhrungskernen 110 

20 gleichzeitig auftreten. Ein von der Prufeinheit 130 erfaSter 
Unterschied zwischen Ausftihrungsergebnissen ist wahrschein- 
lich auf einen weichen Fehler in der Schaltung einer der 
beiden Ausfuhrungskerne 110 zurxlckzuf Cthren . Speicherstruktu- 
ren wie Regis terdateien, Cache -Speicher, Latch-Schaltungen 

25 und dergleichen sind besonders anfallig fur diese Fehler. 
Diese Strukturen speichern Spannungspegel , welche Operanden- 
werte, Befehle oder Mikrooperationen an verschiedenen Punk- 
ten der Befehlspipeline repr&sentieren. Die vorliegende Er- 
findung stellt einen Mechanismus zur Verfugung, um die Inte- 

30 grit&t von Ausfuhrungskernen eines Prozessors wiederherzu- 
stellen, welcher im redundanten Modus arbeitet, wenn eine 
Diskrepanz zwischen von den Ausfuhrungskernen erzeugten Er- 
gebnissen erfafit wird. 

GemaS einem Ausfuhrungsbeispiel der vorliegenden Erf in- 

35 dung wird auf eine Firmware basierte Wiederherstellungsrou- 
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tine zugegriffen, wenn eine Diskrepanz zwischen den von den 
beiden Ausfuhrungskernen des Prozessors erzeugten Ergebnis- 
sen im redundant en Modus erfaSt wird. Die Fehlerbehebungs- 
routine bzw. Wiederherstellungsroutine schaltet den Prozes- 
5 sor auf den geteilten Modus um, in welchem jeder Ausfuh- 
rungskern Daten von seinen Ausffchrungsressourcen auf Fehler 
untersucht und die unverf alschten Daten an einem bestiromten 
Speicherplatz speichert. Die Fehlerbehebungsroutine initia- 
lisiert die Ausfvihrungskerne unter Verwendung der unver- 

10 f&lschten Daten und gibt die Steuerung an den unterbrochenen 
PrograramteilprozeS zuruck. Bei einer erf indungsgemaSen Aus- 
fuhrungsform sind die untersuchten Ausfuhrungsressourcen pa- 
ri t&tsgeschtitzte Speicherstrukturen . Es werden genilgend Pro- 
zessorzustandsdaten aus den unverf alschten Daten wiederher- 

15 gestellt, um beide Ausfuhrungskerne fur die weitere Verar- 
beitung des unterbrochenen Programmteilprozesses zu initia- 
lisieren. 

Die Verwendung einer Firmware -basierten Wiederherstel- 
lungsroutine ermoglicht es dem Prozessor, hoher entwickel- 

20 tere Wiederherstellungsmechanismen zu implementieren. Diese 
Mechanismen konnen sich einem breiteren Spektrum von Fehlern 
widmen, als es Mikrocode- oder Hardware basierte Wiederher- 
stellungsmechanismen kdnnen, die beide durch ihre Auswirkung 
auf die Chipfl&che beschrankt sind. Firmware basierte Wie- 

25 derherstellungsmechanismen kSnnen einfacher aktualisiert 

werden, um andere Fehler handhaben zu konnen oder um Verbes- 
serungen in Fehlerbehebungsalgorithmen zu implementieren* 
Daruber hinaus k6nnen Firmware basierte Wiederherstellungs- 
mechanismen Systeme einer hdheren Ebene, beispielsweise 

30 Firmware der Systemebene oder das Betriebssystem benachrich- 
tigen, um sofern erf orderlich, eine geeignete Aktion auszu- 
f uhr en . 

Bei einer erf indungsgemaSen Ausfiihrungsf orm kann auf die 
Fehlerbehebungsroutine mit Hilfe einer Maschinen- 
35 pruf (maschine check - MC) -Operation zugegriffen werden. Die 
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MC-Operation kann von der Priif einheit 130 ausgelost werden, 
wenn einen Diskrepanz erfaSt wird. Alternativ kann der Pro- 
zessor zun&chst versuchen, sich der Diskrepanz mit Hilfe ei- 
nes Hardwarewiederherstellungsmechanismussees zu widmen und 
5 die Fehlerbehebungsroutine nur dann ausldsen, wenn der Hard- 
waremechanismus fehlschlagt. Zu den Hardwarewiederherstel- 
lungsmechanismen gehdren beispielsweise das erneute Steuern 
des Ausfuhrungskerns (der Ausfuhrungskerne) oder von Teilen 
des Ausfflhrungskerns (der Ausf\ttirungskerne) , uih den Befehls- 

10 strom beginnend mit demjenigen Befehl, ffir welchen die Dis- 
krepanz erfaSt wurde, erneut auszuffihren. 

Figur 3 zeigt eih Ablaufdiagramm, das ein erf indungsge- 
mSfies Verfahren 300 zum Korrigieren von weichen Fehlern dar- 
stellt. Das Verfahren 300 wird begonnen, wenn ein Fehler er- 

15 faSt wird 310, w&hrend der Prozessor im redundanten Modus 
arbeitet. Der Fehler kann durch eine Diskrepanz zwischen den 
von dem erst en und dem zweiten Ausftlhrungskern erzeugten Er- 
gebnissen angezeigt werden. Wenn der Fehler erfaSt wird 310, 
springt 320 der Prozessor in eine Fehlerbehebungsroutine 

20 (error recovery routine - ERR) . Dies kann beispielsweise da- 
durch geschehen, daS eine MC-Operation ausgel6st wird und 
der Prozessor mit Hilfe einer zugehdrigen Vektortabelle zu 
der ERR geleitet wird. 

Die ERR schaltet 330 den Prozessor von dem redundanten 

25 Modus (RM) auf den geteilten Modus (split mode - SM) urn. Bei 
einer Ausffihrungsform des Verfahrens 300 arbeitet jeder Aus- 
fuhrungskern im geteilten Modus, um unverfSlschte Daten aus 
seinen paritsLtsgeschtttzten Speicherstrukturen an einem ange- 
gebenen Speicherplatz zu sichern 340. Unverf ilschte Daten 

30 kdnnen dadurch identif iziert werden, daS die Daten in pari- 
tatsgeschtitzten Ressourcen nach ParitHtsf ehlern abgefragt 
bzw. auf Parit&tsfehler abgetastet (scanning) werden oder 
daS die Daten von diesen Ressourcen an einen Speicherplatz 
kopiert werden und die kopierten Daten auf Paritcttsf ehler 

35 abgetastet werden. Wenn beide Ausfuhrungskerne ihre Daten- 
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sicheroperationen beenden 350, werden die gesicherten Daten 
abgestimmt 360 und liefern einen unverf&lschten Satz von 
Prozessorzustandsdaten. Bei einer anderen Ausffthrungsform 
des Verfahrens 300 sichert 340 nur der Ausfuhrungskern, der 
5 keine verf&lschten Daten in seinen Speicherstrukturen iden- 
tifiziert, seine Daten an dem angegebenen Speicherplatz. Der 
Prozessor kehrt in den redundanten Modus zurtick 370, die 
Ausfuhrungskerne werden rait Hilfe der wiederhergestellten 
Prozessorzustandsdaten initialisiert 380 und die Ausfxihrung 
10 des unterbrochenen Teilprozesses wird wieder aufgenommen 
380. 

Bei einer erf indungsgem&£en Ausftthrungsform wird der 
Prozessor 102 zwischen dem redundanten Modus und dem geteil- 
ten Modus unter Soft wares teuerung, z. B. mit Hilfe eines Mo- 

15 dusumschaltbefehls, umgeschaltet. Bei einer anderen erf in- 
dungsgemaSen Ausfuhrungsform kann der Prozessor 102 mit 
Hilfe eines Hardwaremechanismussees umgeschaltet werden* 
Bevor eine Diskrepanz erfaSt wird, befindet sich der 
Prozessor im redundanten Modus und der Ausfuhrungskern ar- 

20 beitet im Lock-Step bzw. Verriegelungsschritt. Wenn eine 
Diskrepanz erfaSt wird, kann die Fehlerbehebungsroutine die 
Modusumschaltung dadurch realisieren, daS ein Schalte-Auf- 
Geteilten-Modus-Um-Befehl (switch- to- redundant -mode - SW_RM) 
an jeden Ausfuhrungskern geliefert wird. Im redundanten Mo- 

25 dus werden diese Befehle in den Pipelinestufen der beiden 
Ausfuhrungskerne im Lock-Step bzw. Verriegelungsschritt ab- 
gearbeitet (staged down) , wobei der Prozessor auf den ge- 
teilten Modus umgeschaltet wird, wenn sie verabschiedet wer- 
den. Folglich ist es nicht erforderlich, die Ausfuhrungs- 

30 kerne beim Umschalten auf den geteilten Modus zu synchroni- 
sieren. Wenn sich der Prozessor im geteilten Modus befindet, 
kann jeder Ausfiihrungskern die Datenwiederherstellungsopera- 
tionen der ERR unabhangig ausfilhren. 

Wenn der Ausfuhrungskern (die Ausfuhrungskerne) ihre Da- 

35 tenwiederherstellungsoperationen beenden, kehrt der Prozes- 
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sor von dem geteilten Modus wieder in den redundanten Modus 
zurflck, urn den unterbrochenen ProgrammteilprozeS fortzuset- 
zen. Bei einer erf indungsgemafien Ausfuhrungsform Jcann dieser 
Ubergang in Stufen dadurch realisiert werden, daE ein 
5 Schalte-Auf -Redundanten-Modus-Um-Bef ehl ( switch- to-redun- 
dant-mode - SW_RM) in jedem Ausfuhrungskern ausgefflhrt wird. 
Die mehrstufige Realisierung des Ubergangs ermoglicht eine 
Anpassung bei Unterschieden in den Zeitpunkten, zu denen die 
Ausfuhrungskerne ihre Datensicheroperationen beenden. 

10 Bei der beschriebenen Ausfuhrungsform schaltet der 

SW_RM-Befehl in einem ersten Schritt einen Ausfuhrungskern 
auf einen "Bereitzustand (ready state)" um, z, B. CSB(b) 124 
a 1. in dem zwei ten Schritt schaltet der SW_RM^Befehl den 
anderen Ausfuhrungskern auf einen "Bereitzustand" um r z. B. 

15 CSB (a) =1. Der Prozessor kehrt in den redundanten Modus 
zuruck, wenn beide Ausfuhrungskerne den Bereitzustand errei- 
chen, z. B. PSB = CSB (a) UND CSB(b) . In Abhangigkeit von dem 
zur Ablaufsteuerung der Modusumschaltbefehle verwendeten Al- 
gorithmen konnen sich die erste und zweite Stufe vollst&ndig 

20 tiberlappen (gleichzeitiges Umschalten) , teilweise tiberlappen 
oder gar nicht flberlappen (sequentielles Umschalten) . 

Der Bereitzustand ermfiglicht es, dafi die Ausfuhrungs- 
kerne synchronisiert sind, bevor der Prozessor von dem ge- 
teilten Modus in den redundanten Modus umschaltet. Bei ande- 

25 ren erf indungsgemaSen Ausfuhrungsformen kann die Synchroni- 
sierung mit Hilfe eines Hardwaremechanismussees realisiert 
werden. Beispielsweise kann der erste AusfCihrungskern in ei- 
nen Bereitzustand flbergehen, wenn eine Ende-der-Routine-Be- 
dingung erfaSt wird, und der zweite AusfCihrungskern kann in 

30 den Bereitzustand ubergehen, wenn der erste Ausfuhrungskern 
seinen Obergang beendet. Wie bei den Software gesteuerten 
Modusumschaltungen erlaubt es der Bereitzustand den Ausfuh- 
rungskernen, sich zu tref fen, bzw. anzunShern (rendezvous) , 
bevor der Prozessor in den redundanten Modus zurilckgeschal- 

35 tet wird. 
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Figur 4 zeigt eine Aus fuhrungs form eines von einem Aus- 
fuhrungskern implementierten Verfahrens 400 zum Sichern un- 
verfalschter Daten. Beispielsweise kann das. Verfahren 400 
einen Teil der ERR bilden, die von einem Ausfuhrungskern 
5 nach dem Umschalten in den geteilten Modus implement iert 
wird. Wie oben erw&hnt, kann die ERR mit Hilfe einer Maschi- 
nenprflf operation erreicht werden, welche die Steuerung des 
Prozessors mit Hilfe einer zugeordneten Vektortabelle auf 
die ERR ilbertr&gt. Die ERR schaltet den Prozessor von dem 

10 redundanten Modus auf den geteilten Modus urn, wodurch es je- 
dem Ausfuhrungskern ermoglicht wird, auf die in Figur 4 dar- 
gestellte Datenprilf- und Wiederherstellungsroutine unabh&n- 
gig zuzugreifen und diese unabhangig zu implementieren. 
Gemafi dem beschriebenen Verfahren werden unkritische 

15 Speicherstrukturen gerSumt (flushed) 410. Zu den unkriti- 
schen Speicherstrukturen gehoren beispielsweise Cache-Spei- 
cher, Register und Speicherstrukturen, welche keine archi- 
tektonischen Zustandsdaten speichern. Diese Speicherstruktu- 
ren sind ublicherweise nicht paritatsgeschutzt . In AbhSngig- 

20 keit von der Prozessorausffihrungsform kdnnen diese Struktu- 
ren LO-Befehls- und Daten-Cache-Speicher, Verzweigungsziel- 
puffer, Vorgerttcktes-Laden-Verfolgungstabellen und derglei- 
chen sein. 

Der inhalt der Datenregisterdateien bzw. -registersatze 
25 wird auf Paritatsfehler geprtift 420. Wenn kein ParitStsfeh- 
ler gefunden wird 430, wird der Inhalt der Datenregisterda- 
teien an einen bestimmten Speicherplatz kopiert 440. Wie 
oben erwahnt, kann dies ein Speicherplatz sein, der mit dem 
anderen Ausfuhrungskern gemeinsam genutzt wird, oder es kann 
30 ein fur den speziellen Ausfuhrungskern reservierter Spei- 
cherplatz sein. Wenn ein Paritatsfehler gef unden wird 430, 
werden keine Daten aus den Datenregisterdateien kopiert. Al- 
ternativ konnen lediglich unverf&lschte Daten aus der (den) 
Datenregisterdatei (en) kopiert werden. 
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Die C/S-Registerdateien werden ferner auf Parit&tsf ehler 
gepruft 450. Zu diesen gehoren beispielsweise die oben be- 
schriebenen Kernstatusregister, verschiedene Register, wel- 
che Informationen ilber den aktuellen TeilprozeS speichern, 
5 und die Obersetzungsregister in assoziativen Ubersetzungs- 
puf ferspeichern (translation look-aside buffers - TLB) . Wenn 
in den C/S-Registerdateien kein Paritatsf ehler gefunden wird 
460, wird der Inhalt der C/S-Registerdateien an einen be- 
stimmten Speicherplatz kopiert 570. Wenn ein Paritatsf ehler 
10 gefunden wird, werden keine Daten aus der (den) C/S-Re- 

gisterdatei (en) kopiert. Alternativ konnen lediglich unver- 
f&lschte Daten von der (den) C/S-Registerdatei (en) kopiert 
werden . 

Ausfuhrungsformen des Prozessors kdnnen Fehlerkorrektur- 

15 codes (error correction codes - ECC) fftr ausgewahlte Cache- 
Speicher firmwaremaSig implementieren. Dadurch wird keine 
ECC -Korrektur- Hardware im Prozessor mehr ben6tigt, obwohl 
die Cache -Speicher die ECC-Bits weiterhin speichern. Bei 
diesen Ausfuhrungsformen k6nnen 1- und 2-Bit-Fehler mit der 

20 ERR korrigiert werden 480. Das K&stchen 480 wird umgangen, 
wenn der ECC hardwaremaSig implement iert ist. Wenn alle er- 
fasten Fehler korrigiert wurden, springt der Ausf&hrungskern 
in einen Wartezustand 490. 

Wenn jeder AusfCLhrungskern das Verfahren 400 ausgefxihrt 

25 hat, enthalt der bestimmte bzw. spezif izierte Speicherplatz 
nur unverfalschte Daten. Eine Folge der statistischen Natur 
von weichen Fehlern ist, daS es sehr unwahrscheinlich ist, 
dafi der gleiche Datenblock in beiden Ausfiihrungskernen 
gleichzeitig verfalscht ist. Infolge dessen liefert der Da- 

30 tensicherungsprozeS genxigend unverfalschte Prozessorzu- 
standsdaten, um die Ausffihrungskerne zu initialisieren und 
den unterbrochenen ProgrammteilprozeS wieder aufzunehmen. 

Die vorliegende Erfindung erfordert es nicht, daS die 
Speicherstrukturen in einer bestimmten Reihenfblge gerdumt 

35 oder gepruft werden. Beispielsweise konnen Datenregisterda- 
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teien nach C/S-Registerdateien gepruft werden und unkriti- 
sche Dateien k6nnen zu jeder passenden Zeit in dem ProzeS 
ger<Lumt werden. Die oben angegebene Reihenfolge dient ledig- 
lich der Veranschaulichung. 
5 Zus§tzlich zur Sicherung unverf ailschter Daten an einem 

bestimmten Speicherplatz stellt die ERR einen Mechanismus 
zur Verfilgung, um die gesicherten Daten abzustimmen bzw. in 
Einklang zu bringen (reconcile) und urn jedem Ausfuhrungskern 
genGgend unverf &lschte Prozessorzustandsdaten zur Wiederauf- 

10 nahme des unterbrochenen Programmteilprozesses zu liefern. 

Figur 5A zeigt ein Blockschaltbild, das einen Mechanis- 
mus zum Abstimmen der von jedem Ausfuhrungskern in einem 
Prozessor mit zwei Ausfuhrungskernen gesicherten Daten dar- 
stellt. Der Ausfuhrungskern 110(b) implementiert die ERR, urn 

15 seine unverfalschten Daten in einen bestimmten Speicherplatz 
510(b) im Speichersystem 500 zu kopieren (1). Der Ausfuh- 
rungskern 110 (a) implementiert die ERR, urn seine unver- 
f Slschten Daten an einen bestimmten Speicherplatz 510 (a) zu 
kopieren (2) . Bei dem beispielhaf ten Mechanismus laSt ein 

20 weicher Fehler in den Speicherstrukturen des Ausfuhrungs- 
kerns 110 (b) einen unvollstandigen Satz von Prozessorzu- 
standsdaten zuruck. Der Ausfuhrungskern 110 (a) weicher keine 
Paritatsfehler erfahren hat, kopiert (2) einen vollst&ndigen 
Satz von Prozessorzustandsdaten in den Speicherplatz 510 (a) . 

25 Hier bezeichnet "vollstandig" eine Teilmenge der Prozessor- 
zustandsdaten, welche ausreicht, urn dem Prozessor 102 die 
Wiederaufnahme des unterbrochenen Programmteilprozesses zu 
erlauben. Die verfalschten Daten in den Speicherstrukturen 
des Ausf Cthrungskerns 110 (b) k6nnen verf olgt werden, wenn der 

30 Ausfuhrungskern 110(b) seine unverfalschten Daten in den 

Speicherplatz 510(b) kopiert (1), um einen Datensatz der Da- 
ten aufrecht zu erhalten bzw. zu fuhren, die aktualisiert 
werden mussen. 

Nach den Datensicheroperationen (1) , (2) , fOhrt der Aus- 
35 ffihrungskern 110(b) die ERR aus, um unverf&lschte Daten von 
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dem Speicherplatz 510(a) in den Speicherplatz 510(b) zu ko- 
pieren. Dadurch wird ein zweiter vollstclndiger Satz von Pro- 
zessorzustandsdaten zur Neuinitialisierung der Ausftihrungs- 
kerne des . Prozessors 102 zur Verfilgung gestellt. Wenn der 
5 Ausfilhrungskern 110(b) beispielsweise bestimmt, daS der Aus- 
fuhrungskern 110(a) seine Kopieroperationen beendet hat, 
kann er Daten vom Speicherplatz 510 (a) in den Speicherplatz 
510(b) nur fur diejenigen Datenbl6cke kopieren, die ver- 
fSlschte Daten in seinen zugeordneten Speicherstrukturen 

10 entsprechen. Dieser Datenabstimmungsmechanismus (data recon- 
ciliation mechanism) liefert zwei SStze von Prozessorzu- 
standsdaten im Speicher 500, welche dann zum Initialisieren 
(4) und (5) der Ausfdhrungskerne 110(a) bzw. 110(b) verwen- 
det werden kdnnen. Die Initialisierungen (4) und (5) konnen 

15 von jedern Ausfuhrungskern 110 im geteilten Modus getrennt 
erledigt werden oder sie k6nnen von den Ausfilhrungskernen im 
redundanten Modus gleichzeitig erledigt werden. 

Bis auf den Teil der ERR, welcher unverf alschte Daten 
aus dem Speicherplatz 510 (a) in den Speicherplatz 510 (b) ko- 

20 piert, erfolgt der beschriebene Datenabstimmungsmechanismus 
mit Hilfe von redundanten Operationen. Daten werden von je- 
dern Ausfilhrungskern geprUft, im Speicher gesichert und in 
Speicherstrukturen zuruckgeschrieben . Dies verringert die 
Wahrscheinlichkeit, daS ein in einem Satz der Prozessorzu- 

25 standsdaten wahrend der Wiederherstellung erzeugter weicher 
Fehler beide Ausfuhrungskerne verfalscht. 

Figur 6 zeigt ein Ablaufdiagramm, das den Datenabstim- 
mungsmechanismus gemaS Figur 5A darstellt. Dieser entspricht 
beispielsweise dem K&stchen 490 gemaS Figur 4. Ein den Da- 

30 tenabstimmungsteil der ERR implement ierender Prozessor be- 
stimmt 610, ob der andere Ausfilhrungskern seine Datensicher- 
operationen beendet hat. Wenn diese Operationen beendet wur- 
den, bestimmt 620 der Ausfilhrungskern, ob er seine gesicher- 
ten Daten aktualisieren muS. 
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Bei einer Ausffihrungsform des Verfahrens 600 aktuali- 
siert 630 der Ausfuhrungskern, der verf£lschte Daten in sei- 
nen Speicherstrukturen erfaSt hat, seine gesicherten Daten 
mit Hilfe entsprech^nder Daten von dem Speicherplatz des an- 
5 deren Ausfuhrungskerns. Beispielsweise kann der Ausfiihrungs- 
kern einen Hinweis auf die Datenblocke speichern, die w^h- 
rend seiner Sicheroperationen verfalscht erscheinen. Dieser 
Ausfuhrungskern kann diese Hinweise dann verwenden, um un- 
verf alschte Versionen der. Daten von der entsprechenden Spei- 

10 cheradresse des bestimmten Speicherplatzes des anderen Aus- 
fdhrungskerns abzurufen. Der Ausfuhrungskern, der keine ver- 
falschten Daten erfaSt hat wartet, bis der andere Ausfiih- 
rungskern seine Aktualisierung 630 beendet 640. Wenn beide 
Ausfiihrungskerne den Wartezustand 640 erreichen, kehrt der 

15 Prozessor 650 in den redundanten Modus zuruck und initiali- 
siert 660 die Ausfiihrungskerne mit den abgestimmten Daten. 
Bei einer alternativen Ausftihrungsform des Verfahrens 600 
k&nnen die Ausfuhrungskerne im geteilten Modus initialisiert 
werden und dann wird in den redundanten Modus zuruckgekehrt . 

20 Pigur 5B zeigt einen alternativen Mechanismus zur Daten- 

abstimmung. Beide Ausfiihrungskerne 110(a) und 110(b) schrei- 
ben (1) bzw. (2) ihre unverf&lschten Daten bei diesem Mecha- 
nismus an entsprechende Speicheradressen in dem gleichen 
Speicherplatz 520. Bei einer Ausffchrungsform des Mechanismus 

25 schreibt nur der Ausfuhrungskern seine gesamten Prozessorzu- 
standsdaten in den Speicherplatz 520, der keine verfSlschten 
Daten hat. Der Ausfuhrungskern, der verf Alschte Daten in 
seinen Datenstrukturen erfafit, kopiert die verf&lschten Da- 
ten nicht in den Speicherplatz 520. 

30 Eine andere AusfCihrurigsform des Mechanismus gemlig Figur 

5B kann Daten von dem Ausfuhrungskern, der in seinen zuge- 
ordneten Speicherstrukturen keine verfalschten Daten erfaSt, 
schreiben und den Sicherungsschritt f.Qr den anderen Ausfuh- 
rungskern, d. h., denjenigen Kern, der verf&lschte Daten 

35 enth&lt, uberspringen . In jedem Fall sind die in den Spei- 
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cherplatz 520 kopierten Prozessorzustandsdaten vollstSndig 
und konnen an die Ausfuhrungskerne 110(a) bzw. 110(b) zu- 
rfickgeschrieben werden (3) und (4) , urn diese ftir die Wieder- 
aufnahme des unterbrochenen Programmteilproz esses neu zu 
initialisieren. Da nur ein Satz von Prozessorzustandsdaten 
bei dem Datenabstimmungsmechanismus gemaE Figur 5B aufrecht 
gehalten wird, ist ein weicher Fehler in diesem Datensatz 
wahrend der Wiederherstellung durch einen einfachen Ergeb- 
nisvergleich nicht erfaBbar. 

Bei den oben beschriebenen erfindungsgemaSen Ausfuh- 
rungsformen wird die Fehlerbehebung implement iert, wahrend 
der Prozessor im geteilten Modus ist, urn es jedem Ausfilh- 
rungskern zu ermSglichen, Fehler in seinen zugeordneten 
Speicherstrukturen unabhangig zu identif izieren. Weiche Feh- 
ler konnen auch wahrend dieser Fehlerbehebungsoperationen 
auftreten, wenn eine redundante Ausfuhrung zur Erfassung von 
weichen Fehlern nicht verfugbar ist. Fiir hochgradig zuver- 
lassige Systeme kann selbst diese begrenzte Anf&lligkeit fur 
weiche Fehler zu groE sein. 

Bei einer erfindungsgemaSen Ausftthrungsform konnen die 
Ausfxihrungsressourcen jedes Ausfuhrungskerns derart konfigu- 
riert sein, daE sie beim Betrieb im geteilten Modus als zwei 
Oder mehr logische Cluster parallel operieren. wahrend jeder 
Ausftihrungskern die ERR unabhangig implementiert, implemen- 
tieren logisch definierte Ausfuhrungscluster innerhalb jedes 
Ausftthrungskerns Befehle von der ERR redundant. Bei dieser 
Ausfdhrungsform werden Befehle von der ERR innerhalb jedes 
Ausfuhrungskerns vervielf aitigt und an verschiedene Ausfuh- 
rungscluster geleitet. Die von den verschiedenen Ausfuh- 
ruhgsclustern erzeugten Ergebnisse k6nnen verglichen werden, 
urn zu bestimmen, ob ein weicher Fehler bei der Verarbeitung 
der ERR-Befehle auftrat. 

Figur 7 zeigt ein Blockschaltbild einer AusfGhrungsform 
eines Ausfuhrungskerns 710, der dieses Merkmal der internen 
Redundanz enthalt. Die beschriebene Ausfuhrungsform des Aus- 
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fuhrungskerns 710 enth&lt einen Befehls-Cache-Speicher (in- 
struction cache - I-Cache) 714, eine Decodier- oder Verteil- 
einheit (dispersal unit) 720, eine Registerdatei (Register- 
dateien) 73 0, ein erstes und zweites Ausfuhrungscluster 
5 740(a) bzw. 740(b), eine Prxifeinheit 760 und eine Verab- 
schiedungseiheit 770- In der folgenden Beschreibung sind Be- 
zugnahmen auf die Ausfiihrungscluster 740(a) und 740(b) nicht 
mit Index versehen, sofern es nicht zur Vermeidung einer 
Mehrdeutigkeit erforderlich ist. Bezugnahmen auf andere Res- 

10 sourcen in dem Ausfilhrungskern 710 , welche doppelt vorliegen 
bzw. dupliziert sein konnen, wie beispielsweise die die Aus- 
fuhrungscluster 740 bildenden Ausfxlhrungseinheiten, werden 
&hnlich behandelt. 

Bei der beschriebenen Ausfuhrungsf orm enth&lt jedes Aus- 

15 fCihrungscluster 740 eine Verzweigungsausfiihrungseinheit 

(branch execution unit - BRU) 752, eine Ganzzahlausffthrungs- 
einheit (integer execution unit - IEU) 754, eine Speicherma- 
nagement- (Lade/Speichere) -Einheit (memory management unit - 
MMU) 756 und eine Gleitkommaeinheit (floating point unit - 

20 FPU) 758 (allgemein „Ausfuhrungseinheiten n genannt) . Ver- 
schiedene Ausfuhrungsf ormen des Ausfuhrungskerns 710 kdnnen 
verschiedene Arten und unterschiedlich viele Ausfuhrungsein- 
heiten enthalten, ohne den Schtitzbereich der vorliegenden 
Erfindung zu verlassen. Beispielsweise verwendet der Merced- 

25 Prozessor der Intel® Corporation eine VerzweigungsausfClh- 
rungseinheit, die drei separate Verzweigungsausftihrungsein- 
heiten enth3.lt. Die Ausfiihrungscluster 740 sind getrennt 
voneinander dargestellt, um deren logische Organisation im 
geteilten Modus zu veranschaulichen und nicht um eine tat- 

30 ScLchliche Trennung zwischen den verschiedenen Ausfiihrungs- 
ressourcen wiederzugeben . 

Bei anderen Ausfuhrungsf ormen des Ausffthrungskerns 710 
konnen nicht alle Ausffihrungseinheiten 750 dupliziert sein 
oder Befehle kSnnen an bestimmte AusfGhrungseinheiten nicht 

35 dupliziert werden. Beispielsweise bendtigen Verzweigungsaus- 
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fuhrungseinheiten betrSchtliche Prozessorressourcen zur Un- 
tersttitzung, und betrcLchtliche Chipflachen konnen dadurch 
eingespart werden, daS die BRU 752 nicht dupliziert wird. 
Dies wird von dem durch gestrichelte Linien dargestellten 
5 K&stchen um die BRU 752(b) in Figur 7 herum angezeigt. In 
diesem Fall kdnnen Verzweigungsbefehle nicht redundant aus- 
gefuhrt werden, oder es konnen andere Mechanismen zum Prilfen 
ihrer Ausfiihrurig verwendet werden. Beispielsweise kdnnen 
Verzweigungsbefehle dupliziert und seriell ausgefiihrt wer- 

10 den. In Shnlicher Weise kann das Duplizieren von Lade- und 
Speicherbefehlen Bandbreite des Speichersystems im HR-Modus 
belegen. In diesem Fall kdnnen mehrere MMUs 756 implemen- 
tiert werden, urn mehrere Lade- und/oder Speicheroperationen 
in einem Befehlsbundel zu erm6glichen, aber die einzelnen 

15 Lade -/Speicheroperationen werden bei diesen Befehlen im HR- 
Modus nicht dupliziert. Ahnliche Regelungen k6iinen fflr an- 
dere Ausftthrungseinheiten 750 und Befehlstypen verwendet 
werden, ohne den Erf indungsgedanken zu verlassen. 

Der I- Cache -Spei cher 714 liefert der Decodiereinheit 720 

20 Befehle, welche diese fiber eine oder mehrere Registerdateien 
730 an geeignete AusfCihrungseinheiten weiterleitet . Zu den 
Registerdateien 730 geh6ren Datenregisterdateien 732, 
Steuer/Status(controle/status - C/S) -Register 734 und eine 
Registerumbenennungseinheit 738. Die Datenregisterdateien 

25 732 ermdglichen eine temporikre Speicherung far beispiels- 
weise Ganzzahl- und Gleitkommaoperanden, welche von den Aus- 
fuhrungseinheiten 750 bearbeitet werden. Die Umbenennungs- 
einheit 738 bildet die in Mikrooperationen spezif izierten 
virtuellen Registerbezeichner bzw. -identif izierer auf die 

30 physikalischen Register in der Registerdatei 730 ab. 

Die C/S-Register 734 speichern Informationen, welche die 
Arbeitsweise des Ausfuhrungskerns 710 steuern, und den Sta- 
tus der verschiedenen Ausfuhrungsressourcen. Bei einer Aus- 
filhrungsform des Ausfuhrungskerns 710 liefert die Ausgabe- 

35 einheit 720 identische Befehle an die Ausffihrungscluster 
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740(a) und 740(b), wenn sich der Prozessor im geteilten Mo- 
dus befindet. Beispielsweise liefert die Ausgabeeinheit 720 
die Mikrooperationen von einem Befehl (oder die Mikroopera- 
tionen von identischen Befehlen) an geeignete AusfCLhrungs- 
5 einheiten in den Ausffthrunsclustern 740(a) und 740(b). Die 
von den Clustern 740(a) und 740(b) erzeugten Ergebnisse wer- 
den von der Prftfeinheit 760 verglichen, und es wird ein Peh- 
ler angezeigt, wenn sich die Ausfuhrungsergebnisse unter- 
scheiden. Im redundanten Modus kdnnen die Ausfiihrungscluster 

10 740(a) und 740(b) unabhsingig voneinander gesteuert werden 
und verschiedene Befehle verarbeiten. Die Redundanz wird da- 
durch erzeugt, daS auf dem anderen Ausfuhrungskern identi- 
sche Befehle ausgefuhrt werden. Der Ausfuhrungskern 710 er- 
m6glicht eine Redundanz auf Ausffthrungsclusterebene, um ei- 

15 nen Prozessor beim Betrieb im geteilten Modus vor weichen 
Fehlern zu schtitzen. Eine Ausfiihrungsform eines Prozessors, 
welcher einen Ausfuhrungskern 710 enth&lt, wird ausfuhrli- 

cher in der US- Patent anmeldung Nr. mit dem 

Titel „Mikroprocessor With High Reliability Operating Mode n 

20 beschrieben, welche am gleichen Tage wie die vorliegende An- 
meldung eingereicht wurde. 

Es wurde somit ein Firmware -basierter Mechanismus zum 
Korrigieren von weichen Fehlern in einem Prozessor mit zwei 
Kernen beschrieben, welcher zwischen einem redundanten Aus- 

25 fChrungsmodus und einem geteilten Ausfilhrungsmodus hin und 
her geschaltet werden kann. Wenn ein.Fehler bei der Ausfuh- 
rung eines Programmteilprozesses im redundanten Modus erfafit 
wird, schaltet der Prozessor in den geteilten Modus um. Im 
geteilten Modus identif iziert ein Ausfuhrungskern unver- 

3 0 f&lschte Prozessorzustandsdaten in seiner Speicherstruktur 
und kopierte diese unverfalschten Daten an einen bestimmten 
Speicherplatz . Die unverfalschten Daten werden dann derart 
abgestimmt, daS sie ausreichend Prozessorzustandsdaten zur 
Wiederaufnahme der AusfCihrung des unterbrochenen Programm- 

35 teilprozesses liefern. Der Prozessor kehrt in den redundan- 
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ten Ausfuhrungsmodus zuruck, die Ausfuhrungskerne werden mit 
den Prozessorzustandsdaten initialisiert, und der unter- 
brochene ProgrammteilprozeS wird wieder auf genommen . Das Um- 
schalten zwischen dem redundanten Modus und dem geteilten 
5 Modus kann mit Hilfe von Modusumschaltbef ehlen realisiert 
werden. 

Die beschriebenen Ausfuhrungsformen wurden zur Veran- 
schaulichung verschiedener Merkmale der vprliegenden Erfin- 
dung geliefert. Der Fachmann auf dem.Gebiet des Prozessorde- 
10 signs, dem diese Beschreibung zugute kommt, wird Abwandlun- 
gen und Modif ikationen der beschriebenen Ausfuhrungsformen 
erkennen, welche dennoch unter den Erf indungsgedanken und 
Schutzbereich der beigefugten Anspruche fallen. 
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5 

FIRMWAREMECHANISMUS ZUM KORRIGIEREN VON WE I CHEN FEHLERN 

Zusammen f as sung 

10 

Ein Computersystem enth&lt einen Prozessor mit zwei Aus- 
fuhrungskernen und einem nicht fluchtigen Speicher, der eine 
Pehlerbehebungsroutine speichert. Die Ausffchrungskerne des 
Prozessors arbeiten im Lock-Step, wenn sich der Prozessor in 

15 einem redundanten AusfQhrungsmodus bef indet und sie arbeiten 
voneinander unabhdngig, wenn sich der Prozessor in einem ge- 
teilten Ausfuhrungsmodus bef indet. Die Pehlerbehebungsrou- 
tine wird aufgerufen, wenn der Prozessor beim Betrieb in dem 
redundanten Ausfflhrungsmodus einen weichen Pehler erfaSt. 

20 Die Fehlerbehebungsroutine schaltet den Prozessor in den ge- 
teilten Ausfuhrungsmodus urn. Im geteilten Modus sichert je- 
der Ausfuhrungskern unverfalschte Prozessorzustandsdaten an 
einem bestimmten Speicherplatz und aktualisiert verf&lschte 
Daten mit entsprechenden Prozessorzustandsdaten von dem an- 

25 deren Ausfuhrungskern. Die Pehlerbehebungsroutine bringt den 
Prozessor in den redundanten Modus zurtick, initialisiert je- 
den Ausfuhrungskern mit den wiederhergestellten Prozessorzu- 
standsdaten und gibt die Steuerung des Prozessors an den 
Programmteilprozessor zuruck, der bei der Erfassung des wei- 

30 chen Fehlers ausgefflhrt wurde. 
(Fig. 3) 
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Patentanspruche 

1. Computersystem mit: 

einem Prozessor, der einen ersten und einen zweiten Aus- 
5 fuhrungskern und eine Prflfeinheit aufweist, wobei der erste 
und der zweite Aus fuhrungskern Befehle unabh&rigig verarbei- 
ten, wenn sich der Prozessor in einem geteilten Modus befin- 
det, und identische Befehle im Lock-Step verarbeiten, wenn 
sich der Prozessor in einem redundanten Modus befindet, und 

10 wobei die Prufeinheit Ergebnisse von dem ersten und dem 

zweiten Ausfflhrungskern vergleicht, wenn sich der Prozessor 
in dem redundanten Modus befindet; und 

mit einem nicht flttchtigen Speicher, in welchem eine 
Pehlerbehebungsroutine gespeichert ist, welche den Prozessor 

15 in den geteilten Modus umschaltet, wenn die PrCifeinheit ei- 
nen Fehler erfaBt, die unverf Slschte Prozessorzustandsdaten 
aus wenigstens einem der Ausfilhrungskerne identif iziert und 
den ersten und zweiten Aus fuhrungskern mit den identif izier- 
ten Prozessorzustandsdaten initialisiert . 

20 

2. Computersystem nach Anspruch 1, wobei die Fehlerbehe- 
bungsroutine den Prozessor in den redundanten Modus zurilck- 
bringt . 

25 3. Computersystem nach Anspruch 1, wobei die Fehlerbehe- 

bungsroutine unverfalschte Prozessorzustandsdaten in jedem 
Aus fuhrungskern zugeordneten ausgew&hlten Speicherstrukturen 
identif iziert, die unverf alschten Prozessorzustandsdaten in 
einen bestimmten Speicherplatz kopiert und die kopierten 

30 Prozessor zustandsdaten in Einklang bringt, wenn der Prozes- 
sor in den geteilten Modus eintritt. 



4, Computersystem nach Anspruch 3, wobei die Fehlerbehe- 
bungsroutine den ersten und zweiten Ausffihrungskern in einem 
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Rendezvous -Zustand synchronisiert und den Prozessor in den 
redundanten Modus zuruckbringt . 

5. Computersystem nach Anspruch 1, wobei das Computersy- 
5 stem ferner einen Hauptspeicher enthalt und die Fehlerbehe- 
bungsroutine die Prozessorzustandsdaten in einem nicht 
Cache-speicherbaren (uncacheable) Teil des Hauptspeichersy- 
stems sichert. 

10 6. Verfahren zum Behandeln von weichen Pehlern in einem 

Prozessor, der einen ersten und einen zweiten Ausfuhrungs- 
kern in einem redundanten und einem geteilten Modus arbeiten 
lassen kann, wobei das Verfahren die Schritte aufweist, 

dafc ein weicher Fehler erfaSt wird, wenn der Prozessor 

15 in dem redundanten Modus arbeitet; 

dafi eine Fehlerbehebungsroutine auf jedem Ausffchrungs- 
kern ausgefilhrt wird, um unverfalschte Daten aus den dem er- 
sten und dem zweiten Ausfuhrungskern zugeordneten Speicher- 
strukturen zu sichern; und 

20 daS Prozessorzustandsdaten aus den gesicherten unver- 

fSlschten Daten wiederhergestellt werden. 

7. Verfahren nach Anspruch 6, wobei das Ausfilhren der 
Fehlerbehebungsroutine die Schritte enthalt, 
25 dafi der Prozessor von dem redundanten Modus in den ge- 

teilten Modus umgeschaltet wird; und 

daB unverfalschte Daten von jedem Ausfuhrungskern in ei- 
nem bestimmten Speicherplatz gesichert werden. 

30 8. Verfahren nach Anspruch 7, ferner mit den Schritten, 

daS die gesicherten unverfaischten Daten in Einklang ge- 
bracht werden, um die Prozessorzustandsdaten wiederherzu- 
stellen; und 
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daS der erste und zweite Ausfihrungskern unter Verwen- 
dung der wiederhergestellten Prozessorzustandsdaten initia- 
lisiert werden. 

5 9, Verfahren nach Anspruch 8, wobei das in Einklang 

bringen der gesicherten unverf alschten Prozessorzustandsda- 
ten die Schritte aufweist, 

dafi verfalschte Prozessorzustandsdaten in einem der er- 
sten und zweiten Ausfuhrungskerne identif iziert werden; und 
10 daS der dem einen der ersten und zweiten Ausfxihrungs- 

kerne zugeordnete bestiirante Speicherplatz unter Verwendung 
von unverf alschten Prozessorzustandsdaten aus dem bestimmten 
Speicherplatz des anderen Ausfiihrungskerns der ersten und 
zweiten Ausfuhrungskerne aktualisiert wird. 

15 

10. Maschinenlesbares Medium auf dem Befehle gespeichert 
sind, die von einem Prozessor mit zwei Ausfuhrungskernen 
ausgeffihrt werden k6nnen, um ein Verfsihren zur Behebung von 
weichen Fehlern zu implement ieren, wobei das Verfahren die 
20 Schritte aufweist, 

daS der Prozessor beim Erfassen eines weichen Pehlers 
derart umgeschaltet wird, dafi er die beiden Ausfuhrungskerne 
unabhangig arbeiten lafit; 

dafi eine Fehlerbehebungsroutine auf jedem Ausfiihrungs- 
25 kern ausgefiihrt wird, um einen minimalen Satz von Prozessor- 
zustandsdaten aus den unverf alschten Prozessorzustandsdaten 
wiederherzustellen; und 

dafi jeder der beiden Ausfuhrungskerne unter Verwendung 
des minimalen Satzes von Prozessor zustandsdaten initiali- 
30 siert wird. 



11. Maschinenlesbares Medium nach Anspruch 10, wobei das 
Initialisieren jedes der beiden Ausfuhrungskerne die 
Schritte aufweist, 
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daS der Prozessor derart umgeschaltet wird, daS er die 
beiden Ausfixhrungskerne im Lock-Step arbeiten lafit; und 

daS der minimale Satz von Prozessor zustandsdaten in je- 
den der beiden Ausfuhrungskerne kopiert wird. 

5 

12. Maschinenlesbares Medium nach Anspruch 10, wobei das 
Ausfilhren einer Fehlerbehebungsroutine die Schritte auf- 
weist, 

daS parit&tsgeschutzte Speicherstrukturen auf jedem Aus- 
10 filhrungskern abgetastet werden, urn unverfalschte Prozessor- 
zustandsdaten zu identif izieren; 

dafi die unverfaischten Prozessorzustandsdaten in den je- 
dem Ausfdhrungskern zugeordneten bestimmten Speicherpl&tzen 
gesichert werden; und 
15 daS der minimale Satz von Prozessor zustandsdat en aus den 

gesicherten Prozessorzustandsdaten wiederhergestellt wird. 

13. Computer system, mit: 

einem einen ersten und einen zweiten Ausftihrungskern 
20 aufweisenden Prozessor, wobei der erste und zweite Ausfuh- 
rungskern derart ausgebildet sind, daS sie im Lock-Step ar- 
beiten, wenn sich der Prozessor in einem redundanten Modus 
befindet, und dafi sie unabhangig arbeiten, wenn sich der 
Prozessor in einem geteilten Modus befindet; und 
25 einem nicht fltichtigen Speicher, in dem eine Fehlerbehe- 

bungsroutine gespeichert ist, um den Prozessor in den ge- 
teilten Modus umzuschalten, wenn ein Fehler im redundanten 
Modus erfaSt wird, um unverfalschte Prozessorzustandsdaten 
in jedem Ausfflhrungskern zu identif izieren und den Prozessor 
30 unter Verwendung eines Satzes von aus den unverf&lschten 
Prozessorzustandsdaten wiederhergestellten Prozessorzu- 
standsdaten in den redundanten Modus zuruckzubringen. 
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14. Computersystem nach Anspruch 13, wobei die Fehlerbe- 
hebungsroutine den Prozessor mit Hilfe eines Modusumschalt- 
befehls in den geteilten Modus umschaltet. 

5 15. Computersystem nach Anspruch 14 , wobei jeder Ausfuh- 

rungskern nach dem Umschalten in den geteilten Modus einen 
Teil des Fehlerbehebungsprogramms unabhangig ausfflhrt, um 
seinen Speicherstrukturen zugeordnete unverf&lschte Prozes- 
sordaten zu identif izieren und an einem bestimmten Speicher- 
10 platz zu sichern. 

16. Computersystem nach Anspruch 15, wobei; einer der 
Ausfuhrungskerne verfalschte Daten aus seinen Speicherstruk- 
turen unter Verwendung von gesicherten Prozessorzustandsda- 

15 ten aus dem bestimmten Speicherplatz des anderen Ausfuh- 
rungskerns aktualisiert . 

17. Computersystem nach Anspruch 16, wobei die Fehlerbe- 
hebungsroutine den Prozessor mit Hilfe eines Modusumschalt- 

20 befehls in den redundanten Modus zurdckbringt . 

18. Computersystem mit: 

einem Prozessor, der einen erst en und einen zweiten Aus- 
fiihrungskern aufweist, die im Sperrschritt arbeiten, wenn 
25 sich der Prozessor in einem redundanten AusfCihrungsmodus be- 
findet, und die unabh&ngig voneinander arbeiten, wenn sich 
der Prozessor in einem geteilten Ausfxlhrungsmodus befindet; 
und 

mit einem nicht fliichtigen Speicher, in dem Befehle ge- 
30 speichert sind, die von dem Prozessor implementiert werden 
konnen, um ein Verfahren zum Beheben von weichen Fehlern 
auszufuhren, wenn sich der Prozessor in dem redundanten Aus- 
fuhrungsmodus befindet, wobei das Verfahren die Schritte 
aufweist, 
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daS der Prozessor in einen geteilten Ausfuhrungsmodus 
umgeschaltet wird; 

daS unverf&lschte Prozessorzustandsdaten von jedem Aus- 
fuhrungskern an einem bestimmten Speicherplatz gesichert 
5 werden; 

daS ein minimaler Satz von Prozessorzustandsdaten aus 
den gesicherten unverfalschten Prozessorzustandsdaten wie- 
derhergestellt wird; und 

daS jeder Ausfuhrungskern mit dem minimalen Satz von 
10 Prozessorzustandsdaten initialisiert wird. 

19. Computersystem nach Anspruch 18, wobei das Wieder- 
herstellen des minimalen Satzes von Prozessorzustandsdaten 
den Schritt aufweist, daS verfalschte Prozessorzustandsdaten 

15 von einem der Ausfuhrungskerne durch unverf&lschte Prozes- 
sorzustandsdaten ersetzt werden, die von dem anderen Ausftih- 
rungskern gesichert wurden. 

20. Computersystem nach Anspruch 19, wobei das Initiali- 
20 sieren jedes Ausfiihrungskerns die Schritte aufweist, 

daS der Prozessor in den redundanten Ausfiihrungsmodus 
umgeschaltet wird; und 

daS Prozessorzustandsdaten aus den bestimmten Speicher- 
platzen in die diesen zugeordneten Ausfuhrungskerne kopiert 
25 werden. 
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